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(54) Title: DEVICE AND METHOD FOR TRANSMITTING ANIMATED AND SOUND IMAGES 
(54) Titre: DISPOSITIF ET PROCEDE DE TRANSMISSION D'IMAGES ANIMEES ET SONORISEES 
(57) Abstract 

The invention discloses a method for forming animated and sound images representing the face of a speaker consisting in effecting 
the following steps: initially: receiving an image of the said speakers face; modeling a face said to be "modelled" representing the said 
face and adapted to be animated; and memorising the said modelled face; then after receiving a message likely to be spoken by the said 
speaker, analysing this message to determine a series of facial expressions to match the speaking out of the said message, and: transmitting 
a voice speaking out the said message, and animating the modelled face corresponding all the time to the delivery of the message. 

(57) Abrege 

Le proc&Je' de formation damages animees et sonorisees representatives du visage d'un interlocuteur consiste a effectuer 
success ivement les etapes suivantes: initialement: recevoir une image d'un visage dudit interlocuteur, moddliser un visage dit ,, mod61iser ,, 
reprdsentatif dudit visage et adapt6 a &tre anime; et memoriser ledit visage mod^liser; puis, apres avoir recu un message susceptible 
d'etre prononce" par ledit interlocuteur, analyser ce message pour determiner une succession d'expressions de visage qui correspond a la 
prononciation dudit message, et: 6mettre une voix prononcant ledit message, et animer le visage moddlise" correspondant a chaque instant 
a la prononciation du message. 
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DISPOSITIF ET PROCEDE DE TRANSMISSION D' IMAGES 
ANIMEES ET SONORISEES. 



5 La presente invention concerne un dispositif et 

un procede de transmission d' images animees et sonorisees 
representatives d'au moins un visage d'une personne . 

Dans la suite, le mot « personne » est 
equivalent au mot « interlocuteur » et designe la personne 

10 dont une image du visage est transmise. 

L' invention s' applique aussi bien a la 
formation d' images a distance, par exemple pour des 
telespectateurs , des auditeurs de stations radiophoniques 
ou des utilisateurs de televisiophones, qu ' a la formation 

15 d' images localement pour 1' insertion dans un jeu video. 

Les dispositif s de transmission d 1 images 
animees actuellement connus necessitent 1 ' utilisation d'un 
capteur photosensible qui fournit un signal electrique 
representant des luminosites pergues . La quantite 

20 d ' information representative de 1 ' image est alors tres 
elevee et , bien que des technologies de compression 
d' images existent, la transmission des images necessite un 
support de transmission capable de transferer de grandes 
quantites d 1 informations par seconde . 

25 De plus, 1 * utilisation du capteur photosensible 

implique de maitriser les conditions de prise de vue, 
telles que l'eclairage, le diaphragme, la longueur focale 
et le reglage de la mise au point. Enfin, la capture et la 
transmission d 1 images animees est alors d * un cout eleve a 

30 cause des quantites d ' informations a transmettre. 
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On connait le document « Systems & Computers in 
Japan », volume 22, no. 5, 1991, New York U.S. pages 50 a 
59, qui presente des etudes de synthese de mouvements 
faciaux pour une interface homme -machine intelligente . Ces 
5 etudes tendent a fournir une interface possedant une image 
faciale et une voix synchronisees . La face presente des 
expressions dont la synthese utilise des donnees de texte 
et des emotions. Cependant, cette interface ne permet pas 
realiser une animation en temps reel en partant de la voix 

10 d'un interlocuteur puisque ce sont des donnees d'un fichier 
informatique de texte qui servent d'une part a une synthese 
de voix et, d' autre part, a animer la bouche du personnage 
de 1' interface. En outre, ce document ne suggere aucune 
correspondance entre la personne qui a produit le texte et 

15 la personne dont la face est representee par 1' interface. 
Enfin, ce document ne suggere aucune transmission a 
distance de la face ainsi synthetisee et animee par des 
donnees de texte . 

On connait aussi le document GB-2 250 405 A qui 

20 presente un dispositif d' analyse de voix et de synthese 
d' image. Ce dispositif analyse des sequences vocale pour 
produire des sequences de mots de code identifiant la 
lettre prononcee, puis la probability qu'une voix 
corresponde a une forme de bouche. Ce document ne suggere 

2 5 aucune correspondance entre la personne qui a produit la 
voix analysee et 1' image de synthese fpurnissante une face 
parlante (« talking face ») . En outre, ce document ne 
suggere aucune transmission a distance de la face ainsi 
synthetisee et animee par des donnees de texte, 

30 On connait encore le "document IEEE Virtual 

reality annual international symposium, 16-22 septembre 
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1993, New York NY US pages 486-491. Ce document decrit des 
recherches dont le but est de donner une face a une 
terminal inf ormat ique . Cette face provenant d'un mannequin 
est animee par une voix naturelle ou un texte. Ce document 
5 ne suggere aucune correspondance entre la personne qui a 
produit le texte ou la voix et la personne dont la face est 
representee par 1' interface. Enfin, ce document ne suggere 
aucune transmission a distance de la face ainsi synthetisee 
et animee par des donnees de texte. 

10 On connait, enfin, le document INTERCHI *93 

Conference proceedings, 24-29 Avril 1993, Amsterdam, page 
187-193. Ce document presente des recherches concernant des 
ecrans faciaux et des modalites de conversation. II analyse 
la qualite de perception de messages selon qu'ils sont 

15 appuyes par une face animee ou non , Cependant , cette 
interface ne permet pas realiser une animation en temps 
reel en partant de la voix d'un interlocuteur puisque la 
voix n'est pas analysee. En outre, ce document ne suggere 
aucune correspondance entre la personne qui a produit le 

20 texte et la personne dont la face est representee par 
1' interface. Enfin, ce document ne suggere aucune 
transmission a distance de la face ainsi synthetisee et 
animee par des donnees de texte. 

La presente invention entend remedier a ces 

25 inconvenients en proposant de modeliser une image d'un 
visage d'un interlocuteur, pour former un visage modelise 
qui peut etre anime, d' analyser un message de cet 
interlocuteur pour determiner une expression faciale 
correspondant a une voix pronongant ce message puis 

3 0 d'animer le modele d * image de visage pour lui donner ladite 
expression faciale tout en emettant la voix. 
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Grace a ces dispositions : 
1' animation peut etre effectuee en temps reel 
puisqu'elle utilise des signaux correspondants a une 
voix, et done une quantite d ' information suffisamment 
5 faible pour permettre un traitement rapide, si ce n'est 

instantane ; 

le visage et la voix correspondent au mime 
interlocuteur ; et 

1' image du visage de 1 ' inter locuteur considere est 
10 animee a distance, par le signal representat if de 

message de cet interlocuteur. 

Ainsi, la capture des mouvements et expressions 
du visage de 1 ' interlocuteur est effectuee en captant non 
pas des rayons lumineux reflechis par le visage mais un 
15 message susceptible d'etre prononce par ledit visage, et 
plus part iculierement par un message vocal prononce par la 
bouche, elle meme representative de 1' expression du visage. 
Le cout du dispositif de 1 1 invention est ainsi limite a 
celui de realisation d'une image fixe, par exemple avec un 
20 appareil photographique ou par ordinateur, et a celui de 
capture d'un message, par exemple par un appareil 
telephonique ou par un ordinateur. 

Selon un premier aspect, la presente invention 
vise un dispositif de transmission d' images animees et 
25 sonorisees representatives d'un interlocuteur, caracterise 
en ce qu'il comporte : 

- un moyen de memorisation d'une image d'un visage dit 
« modelise » representat if du visage dudit 

interlocuteur ; 
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un moyen de communication a distance de signaux 
representat if s d'un message susceptible ■ d'etre prononce 
par ledit inter locuteur ; 

- un moyen d 1 analyse desdits signaux adapte a determiner 
5 une succession d ' expressions de visage correspondant a 

la prononciation dudit message par une voix, selon des 
regies predetermines prenant en compte lesdits 
signaux ; 

- un moyen d 1 animation adapte a animer 1 1 image du visage 
10 modelise de 1 ' interlocuteur pour que ledit visage 

presente successivement chaque expression de ladite 
succession d' expressions de visage correspondant a la 
prononciation dudit message par ladite voix, et 

- un moyen d'affichage d' image et d' emission de sons' 
15 vocaux, adapte a emettre ladite voix et a afficher 

simultanement ledit visage modelise presentant 
1' expression correspondant a chaque instant a la 
prononciation dudit message par ladite voix. 

Selon un deuxieme aspect, la presente invention 
20 vise un dispositif de transmission d 1 images animees et 
sonorisees representatives du visage d'un interlocuteur, 
caracterise en ce qu'il comporte : 

- un moyen de memorisation d'une image d'un visage dit 
« modelise » representatif du visage dudit 

25 interlocuteur ; 

- un moyen de reception de signaux representat if s d'un 
message susceptible d'etre prononce par ledit 
interlocuteur ; 

- un moyen d' analyse desdits signaux adapte a determiner 
30 une succession d' expressions -de visage correspondant a 

la prononciation dudit message par une voix, selon des 
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regies predeterminees prenant en compte lesdits 
signaux ; 

- un moyen d' animation adapte a animer 1 ■ image du visage 
modelise de 1 ' int erlocuteur pour que ledit visage 
presente successivement chaque expression de ladite 
succession d ' expressions de visage correspondanc a la 
prononciation dudit message par ladite voix, et 

- un moyen de transmission de signaux simul tanement 
representatif s de sons vocaux, correspondant a ladite 

10 voix et d' images correspondant audit visage modelise 

presentant 1' expression correspondant a chaque instant a 
la prononciation dudit message par ladite voix. 

Grace a chacune de ces dispositions, le support 
de transmission d' images animees est un support de 
15 transmission de voix ou de texte et il n ' est done pas 
necessaire qu'il soit capable de transmettre plus que les 
frequences vocales . La complexity et le cout de cette 
transmission et de la formation d* images animees sont done 
tres limites. 

Selon des caracterist iques part iculieres , dans 
le dispositif de transmission tel que succinctement expose 
ci-dessus, le moyen de transmission a distance est adapte a 
transmettre des signaux representatif s d'un message vocal 
prononce par ledit interlocuteur . 

Grace a ces dispositions, la capture d'un 
message vocal prononce par 1 ' interlocuteur , par exemple par 
utilisation d'un microphone, suffit pour provoquer 
1' animation, a distance, d'un visage representatif de cet 
interlocuteur . 

30 Selon des caracterist iquies part iculieres , dans 

le dispositif de transmission tel que succinctement expose 
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ci-dessus, ie moyen de transmission a distance est adapte a 
transmettre des signaux representat if s . d'un texte 
susceptible d'etre prononce par 1 ' interlocuteur . 

Grace a ces dispositions, la capture d ' un texte 
5 susceptible d'etre prononce par 1 ' interlocuteur , par 
exemple par utilisation d'un clavier, suffit pour provoquer 
1 ' animation, a distance, d'un visage representat if de cet 
interlocuteur . 

Selon des caracterist iques part iculieres , le 
10 dispositif de transmission tel que succinctement expose ci- 
dessus, comporte, en outre, un moyen de modelisation 
d' image adapte a fournir une image destinee a etre animee, 
en fonction d ' une image prise par un capteur photosensible 
et en ce que le moyen de memorisation memorise ladite 
15 image. 

Grace a ces dispositions, la capture d'une 
image electronique, par exemple par une camera electronique 
ou un scanner suffit a la memorisation de 1' image destinee 
a etre modelisee. Ainsi, la transmission d'une image fixe 

20 destinee a etre animee est realisee par transmission d'une 
photographie ou d'une image video, et le cout de capture et 
de transmission est tres limite. 

Selon des caracterist iques particulieres , le 
dispositif de transmission tel que succinctement expose ci- 

25 dessus, comporte, en outre, un recepteur telephonique relie 
a une ligne telephonique. 

Grace a ces dispositions, les signaux 
representatif s du message et/ou des signaux representatif s 
de sons vocaux et d' images peuvent etre vehicules a grande 

30 distance, par exemple sur uh- reseau telephonique ou 
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inf ormatique, qu'il soit commute ou numerique . En outre, un 
service de televisiophonie peut ainsi etre mis en place. 

Selon des caracteris t iques part iculieres , le 
dispositif de transmission tel que succinctement expose ci- 
5 dessus, comporte, en outre, une antenne hertzienne. 

Grace a ces dispositions : 
des signaux radiophoniques peuvent permettre 
1' animation a distance de visages representatif s des 
visages des interlocuteurs de la station radiophonique , 
10 et/ou 

- des emissions televisuelles dans lesquelles peuvent 
intervenir des images modelisees des t elespectateurs 
peuvent etre dif fusees. 

L» invention vise aussi une console de jeu, un 
15 ordinateur, un banc de montage audiovisuel, un 
televisiophone caracterises en ce qu'ils comportent un 
dispositif de transmission tel que succinctement presente 
ci -dessus . 

Selon un troisieme aspect, la presente 
20 invention vise un procede de formation d' images animees et 
sonorisees representatives du visage d'un interlocuteur , 
caracterise en ce qu'il consiste a effectuer successi vement 
les etapes suivantes : 
- dans un premier temps : 
25 * une operation de reception d'une image d'un visage 

dudit interlocuteur ; 

* une operation de modelisation d'un visage dit 
« modelise » representatif dudit visage et adapte a etre 
anime ; et 

30 * une operation de memorisation dudit visage modelise ; 
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- puis, dans un deuxieme temps et apres une operation de 
reception de signaux representat if s d'un message 
susceptible d'etre prononce par ledit interlocuteur , 

* une operation d' analyse de ces signaux pour determiner 
une succession d' expressions de visage qui correspond a 
la prononciat ion dudit message par une voix ; et, 
simultanement : 

une operation d' emission sonore de ladite . voix 
pronon^ant ledit message, et 
10 . une operation d' animation dudit visage modelise 

pour qu'il presente successivement chaque expression 
de ladite succession d' expressions de visage 
correspondant a chaque instant a la prononciat ion 
dudit message par ladite voix. 
15 Grace a chacune de ces dispositions, 1 ■ etape 

realisee dans un premier temps peut etre faite 
preliminairement a la reception de la voix, eventuellement 
assez lentement . La puissance de calcul necessaire est 
ainsi moins elevee que pour la transmission d'une image 
20 animee captee par un capteur photosensible . 

Ainsi peut etre effectuee la transmission dans 
une emission de television d'une image animee d'un 
telespectateur qui participe a 1' emission. 

Les avantages du procede vise selon le 
25 troisieme aspect de 1' invention comportent , en outre, ceux 
des dispositifs tel que succinctement exposes ci-dessus. 

L 1 invention vise aussi une console de jeu, un 
ordinateur, un banc de montage audiovisuel et un 
televisiophone , caracterises en ce qu'ils mettent en oeuvre 
30 un procede de transmission d 1 images tel que succinctement 
presente ci -dessus . 
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D'autres avantages, bucs et caracterist iques de 
la presente invention ressortiront de la description" qui va 
suivre, faite en regard des dessins annexes, dans 
lesquels : 

5 - la figure 1 represente un premier mode de 

realisation de la presente invention, mis en oeuvre dans 
une production televisuelle ; 

- la figure 2 represente un deuxieme mode de 
realisation de la presente invention, mis en oeuvre dans 

10 une station radiophonique ; 

- la figure 3 represente un troisieme mode de 
realisation de la presente invention, mis en oeuvre dans 
un reseau informatique ; 

- la figure 4 represente un quatrieme mode de 
15 realisation de la presente invention, mis en oeuvre dans 

un reseau informatique ; 

la figure 5 represente un schema bloc de 
dispositifs d* emission d 1 images mis en oeuvre dans ie 
premier mode de realisation de la presente invention ; 
20 - la figure 6 represente les operations 

successives realisees par les dispositifs illustres en 
figure 5 ; 

la figure 7 represente une implantation 
materielle d'un dispositif presente en figure 5 ; 
25 - la figure 8 represente un visage d' enfant 

photographie ; 

- la figure 9 represente la realisation d * une 
image modelisee du visage presente en figure 8 ; 

la figure 10 represente le '^spectre d'un 
30 signal sonore representatif d 1 une voix pronongant un 

phoneme particulier ; 
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la figure 11 represente 1' expression 
correspond au signal sonore presente en figure 10 ; 

- la figure 12 represente un modele anime par 
la voix dont le spectre est represente en figure 10, 
5 destine a etre mis en correspondance avec le visage 

represente sur la photographie presentee en figure 
pour fournir 1 ' image de 1 1 interlocuteur . 

En figure 1, le premier mode de realisation est 
mis en oeuvre pour une production d'oeuvres televisuelles 
10 dans laquelle un telespectateur peut intervenir, son image 
animee par sa voix etant diffusee en direct dans le cadre 
de 1' emission. Ce telespectateur, aussi appele 
« interlocuteur » dans la suite de la description, utilise 
un telephone comportant un combine 101 muni d'un microphone 
15 102 et un clavier 103 . Ce telephone est relie a un reseau 
telephonique 105 par une prise telephonique 104 . 

Dans le studio d' enregistrement de 1' emission, 
une prise telephonique 106 permet de recevoir les signaux 
emis par le telephone du telespectateur considere. Un moyen 
20 d' analyse de signaux sonores 107 analyse les signaux rectus 
sur la prise telephonique 106, et fournit des informations 
representatives d ' expressions du visage de 1 ' interlocuteur 
correspondant a la prononciation du message vocal porte par 
lesdits signaux sonores. Le ^ f onct ionnement du moyen 
25 d' analyse 107 est detaille en regard de la figure. 5. 

Un moyen de capture d' image 108, ici const itue 
d'un scanner de bureau, a preliminairement permis de 
fournir une image electronique numerique d'au moins une 
photographie de visage que 1 ' interlocuteur a envoye , par la 
30 poste ou par telecopie. 
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De maniere manuelle ou par un traitement 
d' image automat ique , 1 ' image electronique numerique a ete 
associee a un visage dit « modelise » constitue d'un modele 
en trois dimensions qui represente le visage de 
5 1 ' interlocuteur et possede des points caracteristiques dont 
les deplacements permettent de faire presenter a ce visage 
des expressions faciales. Ces points, sont, par exemple, 
les commissures des levres, les points les plus haut et les 
plus has des levres, les coins des yeux. 

1° Un moyen de memorisation de modele 109, ici 

constitue d'une memoire de masse, de type disque dur, d'un 
terminal inf ormat ique , conserve les donnees necessaires a 
la reconstruction du visage dit modelise, 

Un moyen d' animation de modele 110 anime le 

15 visage modelise qui est conserve dans le moyen de 
memorisation de modele 109 pour iui donner les expressions 
de visage fournies par le moyen d' analyse de signaux 
sonores 107. A cet effet, il deplace les points 
caracteristiques du visage modelise selon des regies de 

20 deplacement connues et les autres points du visage modelise 
sont deplaces selon des regies de deformation connues. Pour 
la comprehension de ces deplacements, on pourra se reporter 
a la lecture des actes et proceedings de la conference 
IMAGINA de 1 ' annee 1997 et, en particulier a ses pages 246 

25 a 257 qui exposent les travaux effectues a l'Institut 
National de 1 ' Audiovisuel . 

L' image animee du visage modelise representat if 
du visage de 1 ' inter locuteur et le signal sonore 
representatif de la voix de 1 ' interlocuteur sont diffuses 

3 0 simultanement par un emetteur hertzi'en 111, comportant une 
antenne hertzienne et emettant a destination d'une 
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multitude de recepteurs de television relies a des antennes 
hertziennes, en faisant correspondre, a tout moment, 
1' expression du visage modelise a la prononciat ion de la 
voix de 1 ' interlocuteur . 
5 Chaque recepteur de television 112 est muni 

d'un ecran de visualisation 114 et d'un haut-parleur 113. 
II diffuse, selon des techniques televisuelles connues : 

- par 1 ' intermediaire de haut-parleur 113, la voix de 
1 ' interlocuteur , eventuellement combinee a d'autres 

10 signaux sonores caracterist iques de 1' emission, et 

- par 1 ' intermediaire de l'ecran de visualisation 114, 
le visage anime de 1 ' interlocuteur , eventuellement 
complete par un decor, des personnages et une mise en 
scene caracteristiques de 1' emission. 

15 Le schema fonctionnel et le f onct ionnement du 

premier mode de realisation illustre en figure 1 sont 
detailles en regard de la figure 5. 

Selon une variante, le moyen de capture d ' image 
108 est un modem servant a la reception d'un fichiers image 

20 emis par un ordinateur ou un telecopieur. 

En figure 2, un deuxieme mode de realisation de 
la presente invention est mis en oeuvre dans une station 
radiophonique . Chaque animateur ou invite de la station 
consideree, aussi appele « interlocuteur » dans la suite de 

25 la description, est entoure de trois microphones 120, 121 
et 122 relies a un moyen de traitement de sons 133, et dans 
le champ optique d'une camera 123 associee a un moyen de 
traitement d' images 124. 

Le moyen de traitement de sons 133, le moyen de 

30 traitement d' images 124 et une -console numerique 125 sont 
relies a un moyen d' insertion de donnees numeriques 134 
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lui-meme relie a un emetteur hertzien 126 comporcant une 
antenne hertzienne . 

Le microphone 120 est place a droite de 
l'animateur a hauteur de sa bouche. Le microphone 122 est 
5 place a gauche de l'animateur a hauteur de sa bouche. Le 
microphone 121 est place au dessus de la tete de 
l'animateur dans 1 ' axe median des deux autres microphones. 

Le moyen de traitement de sons 133 analyse les 
ratios des intensites sonores representees par les signaux 

10 emis par chacun des trois microphones et fournit une 
information representative de la position de la tete de 
l'animateur. En effet, plus la tete de l'animateur est 
tournee vers 1 ' un des microphones, plus l'intensite sonore 
regue par ce microphone est elevee et plus l'intensite 

15 sonore recpue par les autres microphones est f aible . 

La camera 123 comporte un capteur electronique 
qui fournit un signal representat if de 1 ' image du visage de 
l'animateur, selon des techniques connues dans le domaine 
des cameras videos. Le moyen de traitement d' image 124 

20 analyse le signal issu de la camera 123 et fourni des 
informations d ' expressions de visage, telle que la 
fermeture des yeux, les sourires et les froncements de 
front ou de sourcils, en mettant en oeuvre des algorithmes 
de traitements d' images connus . titre d'exemple, on 

25 analyse les contrastes de differentes zones du visage pour 
determiner si des plis sont apparus sur la peau de chacune 
de ces zones, ce qui permet de detecter les sourires, et 
les expressions basees sur les plis frontaux. De meme , en 
recherchant une zone coloree relat ivement circulaire, dans 

30 une zone particuliere du visage, on peut determiner si les 
yeux sont ouverts et quelle est leur position. Enfin, 
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1' orientation de la tete peuc etre aussi determinee. On 
pourra ( de nouveau, se referer aux actes et proceedings du 
salon I MAG I N A 1997, aux pages 246 a 257, pour la 
description de differents traitements d' images applicables 
5 aux images videos transmises par la camera 123. 

La console numerique 125 est actionnee par un 
technicien et fournit une information representative de 
1'animateur et de ses invites, ces differents 
interlocuteurs etant associes chacun a un ou plusieurs 

10 microphones. Ainsi le signal sonore issu de chaque 
microphone est automat iquement associe a un signal 
representat if de l'identite de 1 ' inter locuteur qui 
s'exprime. A chaque instant, seul 1 ' un des interlocuteur 
est ainsi identifie par le signal sortant de la console 

15 numerique 125 ou du moyen de traitement de sons 133. 

L' information d' expression visuelle determinee 
par le moyen de traitement d' image 123 et les signaux issus 
de la console numerique 125 et du moyen de traitement de 
sons 133, sont associes au signal sonore stereophonique, 

20 par le moyen d' insertion de donnees numerigues 134, selon 
des techniques connues dans le domaine de la transmission 
d' informations alphanumer iques sur un canal radiophonique , 
par exemple par modulation de la sous -porteuse du signal 
vehicule sur ce canal. 

25 On comprend aisement que les signaux emis par 

l'emetteur 126 a destination d'une multitude de recepteurs 
127 sont simultanement representat if s de : 

la voix de chaque interlocuteur qui s'exprime, par 
1 ' intermediaire des microphones, en stereophonie , 



BNSDOCID: <WO 97A6974A1. I. > 



WO 97/46974 




PCT/FR97/Q0981 



- l'identite de cet int erlocuteur , par 1 ' intermediaire 
de la console numerique 125 ou du moyen de traitement de 
sons 133, 

la position de la tete de cet interlocuteur, par 
5 1 ' intermediaire du moyen de traitement de sons 133, et 

- des expression visuelles de cet interlocuteur, par 
1 ' intermediaire du moyen de traitement d' image 124. 

Chaque recepteur 127 comporte une antenne 
hertzienne et est adapte a recevoir le signal diffuse par 

10 1'emetteur hertzien 134. Ce signal est demodule par le 
recepteur 127 . et transmis au moyen d' analyse de signaux 
sonores 128 qui analyse les signaux sonores et fournit des 
informations representatives d ' expressions du visage de 
1 ' interlocuteur , de phonemes prononces, de position de tete 

15 et d ' expressions faciales. 

Le moyen de memorisation de modele est ici un 
compact disque 150 associe a un lecteur de compact disque, 
par exemple de type memoire morte connu sous le nom de CD- 
ROM. Ce CD-ROM conserve des donnees d' images 

2 0 representatives de modeles correspondant a un grand nombre 
d'animateurs et d' invites possibles et des points 
caracterist iques qui permettent d'animer ces visages 
modelises . 

Le moyen d' animation de^ modele 129, constitue 
25 ici d'un ordinateur qui realise con jointement les fonctions 
du moyen d' analyse de signaux sonores 128, anime le visage 
modelise de 1 ' interlocuteur , qui est conserve dans le moyen 
de memorisation de modele 109 et qui correspond au signal 
associe par la console numerique 125 a chaque microphone. 
30 Le moyen d' animation de modele donne "a ce visage modelise : 



BNSDOCID: <WO_ 9746974A1_L> 



WO 97/46974 17 PCTYFR97/00981 



les expressions de visage fournies par le moyen 
d' analyse de signaux sonores 128, 

- la position de la tete de cet interlocuteur, et 

- les expression visuelles de cet interlocuteur. 

5 1' image animee et sonorisee de 1 ' interlocuteur 

considere est diffusee : 

- par 1 ' intermediaire d'un haut-parleur 131, pour la 
voix de 1 ' interlocuteur , eventuellement combinee a 
d'autres signaux sonores caracterist iques de 1' emission, 

10 et 

- par 1 ' intermediaire de 1'ecran de visualisation 132, 
pour 1' image visage anime de 1 ' interlocuteur , 
eventuellement complete par un decor, des personnages et 
une mise en scene caracteristiques de 1' emission. 

15 En figure 3, le troisieme mode de realisation 

de la presente invention est mis en oeuvre dans un reseau 
informatique et anime un visage par des expressions 
faciales qui correspondent a un texte transmis a distance. 

Chaque ordinateur 141 relie a ce reseau 

20 comporte ici un modem 144 et un moyen de memorisation de 
modele 142. L' ordinateur 141 est associe a un ecran de 
visualisation 141 et a un clavier 143. L' ordinateur 141 est 
de type connu, par exemple utilisant un processeur PENTIUM 
(marque deposee) de la societe INTEL (marque deposee) . Le 

25 modem 144 est de type connu. 11 est adapte a transmettre 
sur un reseau telephonique quelconque des donnees 
numeriques . Le moyen de memorisation de modele 142 est ici 
constitue d'un disque dur sur lequel sont enregistrees des 
informations graphiques representant le modele destine a 

30 etre anime ainsi que les points -.caracterist iques destines a 
son animation. 
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Par 1 ' utilisation du clavier 143 et de 1'ecran 
de visualisation 141, 1 ' interlocut eur entre en memoire de 
l'ordinateur 14 0 un texte. A tout ou partie des mots de ce 
texte sont associes des expressions faciales part iculieres , 
5 des mouvements de visage ou de corps et un decor choisi 
parmi une multitude de decors, en mettant en oeuvre un 
logiciel . 

Ainsi, il peut associer un sourire a un mot 
particulier, un clignement d'oeil a un autre mot et un 

10 hochement de tete a un troisieme mot. A cet effet, ledit 
logiciel presente le texte considere sur des lignes 
paralleles a des ligne dite « d' expression » ou 
1 ' interlocuteur peut positionner des icones representat if s 
d ' expressions , de mouvements, de decors, de figures 

15 graphigues ou d' images numeriques, en regard de chaque mot. 
On observe que ces indications suffisent a 1 ' homme du 
metier de 1 ' inf ormat ique pour qu'au fichier texte considere 
soit associe des donnees representatives des icones 
positionnes par 1 ' interlocuteur . En consequence, ce 

20 logiciel n'est pas plus detaille ici . 

Le modem 144 module, sur la prise telephonique 
145, un signal sonore dans les frequences de la bande 
passante d'une ligne telephonique, pour que ce signal 
represente : 

25 - le modele du visage de 1 ' interlocuteur , 

- le texte susceptible d'etre dit par cet interlocuteur 
et 

- les informations accessoires destinees a 1' animation 
de modele. 

30 Un modem 150, relie par- 1 ' intermediaire d'une 

ligne telephonique 146 et d'une prise telephonique 147 au 
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modem emetteur 144, revolt ce signal et restitue les 
fichiers correspondant aux trois types d ' informations 
mentionnes au paragraphe precedent. 

Le modem 150 est, dans le troisieme mode de 
5 realisation, incorpore dans chaque ordinateur 148 relie 
audit reseau. Chaque ordinateur 148 const itue, en outre, un 
moyen d' analyse de messages 153 et un moyen d' animation de 
modele 152. Get ordinateur 148 est associe, de maniere 
connu, a un ecran de visualisation 149, a un haut-parleur 

10 154 et a un clavier 151. 

Le moyen d' analyse de message 153 est constitue 
du processeur de 1' ordinateur 148 et d'un logiciel 
d' analyse de donnees textuelles de type connu, qui associe 
a ce texte une suite de phonemes correspondant a la 

15 prononciation de ce texte. 

Le moyen d' animation de modele 152, constitue 
ici de la mise en oeuvre du processeur de 1' ordinateur 148, 
et d'un logiciel d' animation approprie, associe a chaque 
phoneme fourni par ie moyen d' analyse de message 153, une 

20 expression faciale correspondant a la prononciation de ce 
phoneme, selon des techniques par exemple rappelees dans 
les documents de 1 ' art anterieur cites dans le preambule de 
la presente demande , et dans les documents auxquels ils 
font references qui sont tous con j ointement incorpores ici 

25 par reference. 

Le moyen d' animation de modele 152 anime le 
visage modelise de 1 ' interlocuteur , tel qu'il est regu par 
1 ' intermediaire du modem 150, pour donner a ce visage 
modelise : 

3 0 - les expressions de visage correspondant a la 

prononciation des phonemes, 
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les expressions accessoires associees au texce par 
1 ' interlocuteur, et 

- les elements de decors et d ' environnement associes au 
texte par 1 ' interlocuteur . 

5 En outre, le moyen d' animation de modele 152 

fournit des donnees sonores a une carte d' emission de sons, 
selon des techniques connues dans les systemes de synthese 
de voix ou de lecture automat ique de textes, comme , par 
exemple, les standards telephoniques electroniques 
10 interactifs a synthese de voix. 

1 ' image animee et sonorisee de 1' interlocuteur 
considere est diffusee : 

par 1 ' intermediaire d'un haut-parleur 154, pour la 
voix de 1 ' interlocuteur , eventuellement combinee a 
15 d'autres signaux sonores caracteristiques de choix de 

1 ' interlocuteur , comme 1 ' accent de prononciation, les 
paroles prononcees a voix basse, et 

- par 1 ' intermediaire de 1 ' ecran de visualisation 132, 
pour 1' image visage anime de 1 ' interlocuteur , 

20 eventuellement complete par un decor, des personnages et 

une mise en scene caracteristiques de choix de 
1 ' interlocuteur rappeles ci -dessus . 

En figure 4, le quatrieme mode de realisation 
est mis en oeuvre dans un reseau inf ormatique . 
2 5 On retrouve en figure 4 les elements de la 

figure 3, a 1' exception du moyen d' analyse de messages 153 
qui est remplace par un moyen d' analyse de signaux sonores 
160. L'ordinateur 140 comporte, en outre, un moyen de 
capture de sons 161, connu sous le nom de carte de 
30 numerisation de sons, associe a un -microphone 162, de type 
connu . 
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Le quatrieme mode de realisation fonctionne de 
la meme maniere que le troisieme mode de realisation 
illustre en figure 3, a la difference pres que le fichier 
de donnees textuelles est remplace par un fichiers de 
5 donnees sonores representant la voix de 1 ' interlocuteur . 
Comme dans le troisieme mode de realisation, 
1 ' interlocuteur associe a ce fichier des donnees 
d' animation, d' expression, de mouvement, de decors ou 
d ' image . 

10 Pour le destinataire de ce fichier, le moyen 

d' analyse de signaux sonores 160, constitue du processeur 
de l'ordinateur 148 et d'un logiciel dedie, analyse les 
signaux re?us par 1 ' intermediaire du modem 150, et fournit 
des informations representatives d' expressions du visage de 
15 1 ' interlocuteur correspondant a la prononciation du message 
vocal porte par lesdits signaux sonores. 

Dans le schema bloc de dispositif d 1 emission 
d* images mis en oeuvre dans le premier mode de realisation 
de la presente invention (figure 5) , sont representes : 
2 0 - un appareil telephonique 1, comportant un combine 2 

possedant un microphone 30, et un clavier 3, et adapt e a 
emettre un signal electrique representat if des sons qui 
atteignent le microphone 30 et des pressions effectuees 
sur les touches du clavier 3, selon des techniques 
25 connues dans les appareils telephoniques a frequences 

vocales ; 

- un reseau telephonique 4, de type connu, represents 
sous la forme de deux rectangles schematisant des prises 
telephoniques separes par une ligne interrompue ; 
30 - un moyen d' analyse de voi^c. 5 dont le f onct ionnement 

est expose en regard de la figure 6 et qui fournit des 
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donnees representatives d ' expressions orales a un moyen 
d* animation de visage 9 ; 

- un moyen d' analyse de frequences vocales synthetiques 
6, de type connu, adapte a transmettre des donnees 

5 numeriques representatives des frequences vocales emises 

sur le reseau telephonique par l'appareil telephonique 
1, et representative d * une eventuelle pression appliquee 
sur un des touches de son clavier 3 ; 

un moyen de numerisat ion d ' image 7, adapte a 
10 transmettre des donnees representatives d 1 une image d ' un 

visage, de type connu dans les scanners bureautiques ; 

- un moyen de model isation 8 adapte a combiner des 
donnees representatives d'une image re^ue de la part du 
moyen de numerisation d ' image 7 avec un modele et a 

15 fournir 1' image fixe combinee resultante au moyen 

d' animation d ' image 9 ; 

- le moyen d* animation de visage 9 adapte a animer le 
modele combine avec des expressions faciales 
correspondant aux expressions orales provenant du moyen 

2 0 d* analyse de voix 5 ; 

- un moyen d' animation de personne 10, de type connu, et 
adapte a fournir des informations representatives 
d ■ images animees d'une personne possedant le visage 
realise par le moyen d* animation de visage 9, en 

25 fonction de donnees provenant du moyen d' analyse de 

frequences vocales synthetiques 6 ; 

un moyen de combinaison de personne et de scene 11 
adapte a inserer 1 ' image de la personne representee par 
les informations sortant du moyen d 1 animation de 

3 0 personne 10 avec des informations sur une scene 
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comportant , par exemple cies mobiles, des decors et des 
personnages, selon des techniques connues ; 

un moyen d'affichage 12 de type connu , par exemple 
constitue d'un televiseur, adapte a afficher 1 1 image 
5 sortant du moyen de combinaison 11 ; 

un emetteur video 13 de type connu, par exemple 
constitue d'une emetteur hertzien ou d'un emetteur sur 
reseau de television cable ; et 

- un moyen d ' enregis trement 14 de type connu, par 

10 exemple constitue d'un magnetoscope. 

Le moyen d ' analyse de voix 5 qui fournit des 
donnees representatives d ' expressions orales est, par 
exemple, constitue d'un ordinateur, d'une carte 
d 1 acquisit ion de son, de type connu, et d'un logiciel de 

15 detection dit "F.V. M , initiales des mots "Frequences 
Vocales" , qui determine des cles d' animation, en fonction 
des frequences vocales utilisees. Ainsi, en fonction des 
graves, des aigus, des paliers et des evolutions de ces 
frequences utilisees, sont determines des phonemes et des 

20 lettres prononces, des rires, des attentes sonores ou 
muettes, ... et d'autres expressions et attitudes faciales. 
Des fournisseurs connus de ces types de logiciels sont 
SILICLONE et SOFTIMAGE, VIEWER. On observe que, 
pref erent iellement , une etape initiale d ' apprent issage est 

25 effectuee avec 1 ' interlocuteur et hors antenne. Au cours de 
cette etape, on demands a 1 ' interlocuteur de prononcer un 
certain nombre de phonemes, par exemple les voyelles et on 
memorise les spectres caracterist iques des prononciat ions 
de ces phonemes. 

3 0 Le moyen de modelisation 8 est adapte a 

combiner des donnees representatives d'une image reqrue " de 
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la part du moyen de numerisation d * image 7 avec un modele. 
II est, par exemple, compose d'un ordinateur et d * un 
logiciel de traitement d ' image adapte a realiser des 
traitements d 1 images connus sous le nom anglais de 
5 "morphing", parfois traduit en frangais sous le nom de 
"metamorphose" et qui fait correspondre ; 

- des points caracter istiques de deux images (coins de 
bouche, points de contours du nez et du visage, coins 
des yeux) pour determiner la distance entre ces points 
10 sur les deux images (ici 1 1 une des images est un modele 

de visage en trois dimensions et 1' autre est une 
photographie numerisee) ; et 

les autres points, par propagation et attenuation 
progressive de ces distances, en calculant sur des 
15 triangles qui entourent ces points et dont les sommets 

sont des points caracteristiques, un deplacement du 
point de la photographie . 

Certains ouvrages techniques de reference, 
comme le guide de 1 * ut ilisateur et le manuel de 
20 1 • utilisateur du logiciel SOFTIMAGE "EDDIE", imprime au 
Canada, definissent le morphing ou la metamorphose comme un 
fondu enchaine entre deux etats . lis sont incorpores a la 
description par reference. 

On note que, selon 1' invent ion, le visage 
25 modelise resultant du fonctionnement du moyen de 
modelisation 8 correspond a un etat intermediaire de la 
metamorphose entre une photographie d'un visage reel et 
d'un modele destine a etre anime . 

Ainsi, le visage modelise resultant possede un 
30 visage de 1 ' inter locuteur represents sur la photographie, 
les traits de ce visage pouvant etre animes par deplacement 
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de points ou de lignes particuliers du modele auquel a ete 
associee la photographie pour former le visage modelise. 

Le moyen d' animation de visage 9 adapte a 
aninner le modele combine avec des expressions faciales 
5 correspondant aux expressions orales provenant du moyen 
d' analyse de voix 5 est de type connu dans 1* animation de 
personnages de dessins animes. Le lecteur pourra, pour une 
meilleure comprehension, se referer aux ouvrages de 
reference cites ci-dessus ainsi gu'au "Tool Book" et au 

10 manuel de 1 ' ut ilisateur du logiciel correspondant de la 
societe ALIAS WAVE FRONT et du guide de 1 • ut ilisateur du 
logiciel "Morph" de la societe GRYPHON SOFTWARE 
CORPORATION, ces cinq documents etant incorpores par 
reference dans la description de l f invention. 

15 L 1 ensemble des fonctions de traitement d ' image 

decrites en regard des figures 5 et 6 peuvenc etre 
realisees par des ordinateurs mettant en oeuvre des 
logiciels tels que ceux cites ci-dessus ainsi que les 
logiciels de marque SOFTIMAGE VIEWER , SILICLONE et un 

20 logiciel de 1' Institut National de 1 * Audiovisuel realisant 
des morphings ou metamorphoses en trois dimensions de 
maniere automatique . 

Le f onctionnement du dispositif presente en 
figure 5 est simple : pour transmettre une image animee, le 

25 dispositif utilise d'une part 'un traitement d'une image 
fixe afin de la rendre apte a etre animee (par 
1 ' intermediaire du moyen de numerisation d 1 image 7 et du 
moyen de modelisation 8) et d' autre part un traitement de 
voix pour determiner des expressions orales (realisee par 

30 le moyen d' analyse de voix 5) ^puis faciales qui animent 
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1 ' image fixe (animation effectuee par le moyen d 1 animation 
de visage 9) . 

Selon une variante, destinee a la transmission 
d' images entre interlocuteurs telephoniques , l'appareil 
5 telephonique peut ne pas etre a frequence vocale, le moyen 
d' analyse de frequences vocales 6, le moyen d* animation de 
personne 10', le moyen de combinaison de personne et de 
scene 11, 1 ' emetteur video 13 et le moyen d • enregist rement 
14 sont supprimes, le moyen d'affichage 12 affichant 

10 directement 1 • image sortant du moyen d 1 animation de visage. 

La figure 6 represente les operations 
successives realisees par le dispositif illustre en figure 
5, en mettant en oeuvre un programme conserve dans la 
memoire morte 17 de 1 ' ordinateur 15 (figure 7). 

15 Les deux premieres operations, referencees 200 

et 201, sont effectuees preliminairement a la reception du 
signal sonore qui porte la voix. Au cours de 1' operation 
200, le visage est numerise, par le moyen de numerisation 7 
(figure 5) et memorise dans la memoire vive 16 de 

20 1' ordinateur 15 (figure 7) . 

Au cours de l 1 operation 201, le visage numerise 
au cours de 1' operation 2 00 est combine, par metamorphose, 
avec un modele destine a etre anime. Les traits du visage 
resultant sont done ceux du visage numerise, e'est-a-dire 

25 ceux de 1 1 interlocuteur , mais les elements de ce visage 
sont mis eh mouvement selon des procedures dependant du 
visage numerise, mais iiees aussi au modele destine a etre 
anime . 

Le visage resultant est done hybride, son 
30 apparence etant celle du visage numerise et ses mouvements 
etant ceux du modele. Comme il est decrit en regard de la 
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figure 5, les mouvements sont commandes, par 
1 1 intermediaire de 1' analyse de la voix. de 1 1 interlocuteur, 
par les mouvements du visage de 1 ' interlocuteur, 

L'operation 202 correspond a la reception du 
5 son telephonique sur une entree de signaux du dispositif 
presente en figure 5. 

L'operation 203 correspond a 1' analyse 
spectrale du son regu au cours de l'operation 202 afin de 
fournir un spectre en frequence de ce signal. Dans ledit 

10 spectre, a chaque frequence, en abscisse, est associee 
1' amplitude du signal possedant cette frequence, en 
ordonnee , dans le signal sonore regu (figure 10) . 

L'operation 204 consiste a extraire les 
frequences vocales synthetiques pour determiner si le 

15 clavier 3 de l'appareil telephonique 1 a ete utilise. On 
note que les frequences vocales utilisees correspondent 
tou jours a une combinaison d'au moins deux frequences 
primaires non harmoniques, de telle maniere que les risques 
d'erreur de detection soient limites. 

20 Le resultat de 1' extraction des frequences 

vocales, est la mise en memoire vive 16, dans le registre 
-fre<yvoc de la valeur de la touche du clavier sur laquelle 
une pression a ete detectee (figure 7) . 

Au cours de l'operation 205, le moyen d' analyse 

25 de voix determine, par analyse 'du spectre realise au cours 
de l'operation 203, les phonemes et autres expressions 
orales utilisees par 1 ' interlocuteur . Pour realiser cette 
operation, le spectre du signal sonore est compare a des 
spectres caracter ist iques de phonemes et d ' expressions 

30 orales (comme le rire), lesdits spectres caracter ist iques 
etant conserves dans la memoire morte 17 de l'ordinateur 
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15. On note cependant, que cette analyse est effectuee de 
maniere dynamique, ce qui signifie que ce n'est pas 
toujours un seul spectre instantane qui permet de 
determiner 1' expression orale mais aussi parfois une 
S succession de spectres, ladite succession pouvant etre 
caracteristique d'une expression orale. Pour une meilleure 
comprehension de cette operation, on se rapportera au 
notices d ' utilisation des logiciels cites plus haut . 

Au cours de 1' operation 206, chaque expression 

10 . orale est mise en relation avec une expression faciale, par 
[ exemple le phoneme prononce a la lecture de la lettre "O" 
correspond a une expression faciale dans laquelle les 
machoires sont legerement ecartees et les levres forment 
une ouverture ronde de petite dimension. 

15 Chacune de ces expressions faciales est mise en 

correspondance , au cours de 1' operation 207, avec une 
succession de mouvements de points caracterist iques du 
modele de visage qui supporte le visage de 1 1 interlocuteur . 
Par exemple si la prononciat ion de la lettre "O" est 

20 effectuee pendant une duree d'une seconde, entre deux 
silences, les mouvements successifs du modele et done de la 
personne modelisee, correspondent : 

- d'abord, pendant un quart de seconde, a 1 ' ecartement 
des machoires et a la mise des levres en rond ; 

25 - puis, a un maintien de cette posture pendant toute la 

duree de la prononciat ion de la lettre "O" ; 

- puis, a la fin de cette prononciat ion (et done ici au 
retour du silence) , le visage reprend son aspect initial 
en un quart de seconde . 

30 Si la frequence de raf raichissement de 1 ' image 

est de 25 Hertz, e'est-a-dire que 25 images differentes 



BNSDOCID: <WO _ 9746974A1. I > 



WO 97/4^974 




PCT/FR97/00981 



sont affichees pendant chaque seconde (frequence 
correspondant a celle de la television) , la sequence 
decrite ci-dessus correspond a environ 37 images done a 37 
successions de mouvements ef fectues entre deux images. 
5 L'operation 208 consiste a mettre le visage en 

mouvement selon les valeurs successives conservees dans le 
registre freqvoc (figure 7) pour tenir compte de l'appui 
sur les touches du clavier 3 . Cette operation 208 
correspond par exemple a un jeu auquel joue 

10 1 ' interlocuteur . 

L'operation 209 consiste a inserer le visage 
resultant des operations 207 et 208 dans une scene dont les 
caracteristiques dependent, elles aussi, des expressions 
orales et des touches de clavier utilisees. 

15 Par exemple, au cours d'un jeu, les expressions 

orales peuvent permettre de deformer un objet, et les 
appuis sur des touches peuvent permettre de deplacer cet 
objet . 

L'operation 210 correspond a I'affichage de la 
20 scene comportant le visage, a sa memorisation et a 
1' emission de 1 1 image . Dans l 1 exemple du jeu televise 
considere ici, 1 ' interlocuteur voit son image sur un 
televiseur et il utilise, d 1 une part le clavier 3 de son 
appareil telephonique 1, et d ■ autre part sa voix, pour 
25 jouer au jeu considere en voy'ant 1 ' image animee de son 
visage sur son ecran de television. 

A la suite de l'operation 210, le systeme 
retourne a l'operation 202. 

II faut noter que la suite d' operations decrite 
30 ici s'effectue, en fait, en temps reel, c 1 est-a-dire que, 
apres I'affichage de chaque image (operation 210), toutes 
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les operations 202 a 209 sont effectuees en une duree 
inferieure a celle du raf raichissement de 1' image, le 
visage et la scene etant en fait modifies progressivement 
au cours de ces operations. 
5 La figure 7 represente une implantation 

materielle d'un dispositif presente en figure 5. Ce 
dispositif est, ici, organise selon des architectures 
connues dans le domaine des ordinateurs, autour d 1 un bus de 
communication informatique 20 auxquels sont relies : 
10 - une unite centrale de calcul 21, de type connu, 

comportant en particulier un processeur ; 

une memoire vive 16 qui comporte des registres de 
memoire et en particulier le registre freqvoc ; 

une memoire morte 17 qui conserve le programme de 
15 f onct ionnement du dispositif ; 

- un port de sortie video 18 ; 

- un port d' entree et de traitement de son 19 ; et 

- un port d' entree et de traitement d 1 image 22. 

Le port de sortie video 18 est de type connu, 
20 il fournit, selon des variantes, soit un signal adapte aux 
normes en matiere de television, par exemple la norme CC1R 
en Europe, soit un signal adapte au normes en matiere 
d'ecrans d ' ordinateur , par exemple la norme super VGA. 

Le port d' entree et de traitement de son 19 est 
25 de type connu. D'une part il numerise le son, et d' autre 
part il en extrait un spectre instantane (figure 10) . Les 
informations resultant de ce traitement sont memorisees 
dans la memoire vive 16 . 

Le port d' entree et de traitement d ' image 22 
30 est de type connu. Il permet de met.t.re en memoire vive 16 
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des donnees numeriques representatives d'une scene 
visuelle . 

La figure 8 represente une photographie d'un 
visage d' enfant. On observe que cet enfant a des cheveux 
5 plats, des lunettes dont chaque verre est sensiblement plus 
large dans la partie haute que dans la partie basse, qu' il 
a les oreilles normalement collees et qu' il arbore un 
sourire tout en conservant la bouche f ermee . 

La figure 9 represente un niodele du visage 
10 presente en figure 8, auquel un microphone a bras articule 
a ete ajoute. On observe ici aussi que ce modele d' enfant 
presente des cheveux plats, des lunettes dont chaque verre 
est sensiblement plus large dans la partie haute que dans 
la partie basse, qu'il a les oreilles normalement collees 
15 et qu'il arbore un sourire tout en conservant la bouche 
f ermee . 

Le visage modelise cree par le moyen de 
modelisation 8 au cours de l 1 operation 201 fournit une 
image qui est intermediaire dans la metamorphose des images 

2 0 presentees en figure 8 et 9 . On observe (figure 11} que les 
visages des figures 8 et 9 peuvent etre associes par des 
points caracterist iques 60, sur le front, 61, sur les 
pommettes, 62, aux coins des levres et 63 sur le menton . 
Ces points nommes "primaires" sont ceux qui sont les 

25 sources ou reperes de deformation du visage, c'est-a-dire 
que les autres points du visage sont deplaces en fonction 
du deplacement de ces points primaires, pour representer 
l'elasticite de la peau du visage. 

Bien que des a present, le posit ionnement 

30 automatique des points primaires. sur 1 ' image representee en 
figure 8 soit possible, par des techniques de 
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reconnaissance de forme appliquees a ces points (voir en 
particulier les proceedings du salon I MAG I NA sus - 
mentionnes) , il est plus economique et plus sur de 
posit ionner manuellement , en utilisant des moyens de 
5 pointage connus , tels que souris ou joystick, associes a 
1' unite centrale 21 pour mettre en oeuvre le procede de 
1' invention dans le cadre d' emissions televisuelles . 

C'est le deplacement des points primaires qui 
est mis en relation avec des expressions faciales, elles- 
10 memes en relation avec des expressions orales analysees a 
partir de la voix de 1 ' interlocuteur . 

La figure 10 represente le spectre d ' un signal 
sonore representatif d'une voix. 

Comme indique plus haut, en abscisse de ce 
15 spectre se trouvent les frequences et en ordonnee les 
amplitudes correspondantes . C'est la repartition spectrale 
et la deformation, dans le temps, de cette repartition qui 
permettent de determiner une expression orale . 

La figure 11 represente 1* expression qui 
20 correspond au signal sonore presente en figure 10. 

Cette expression de rire comporte, par rapport 
au meme visage sans expression : 

- un deplacement vers la bas du point primaire du menton 
63 ; 

25 - un ecartement et une remontee laterale des points 

primaires des levres 62 ; 

- une remontee des points primaires de pommettes 61 ,- 

- un rapprochement des points primaires de front 60. 

La figure 12 represente 1 ' image animee 
30 correspondant a 1' expression portee. par la voix presentee 
en figure 10. Chaque point du visage modelise, represente 
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en figure 9, est associe a crois poincs primaires, sommets 
d'un triangle qui entoure le point considere. Ce point est 
deplace proportionnellement a la deformation et au 
deplacement des sommets de ce triangle, de telle maniere 
5 que les deplacements soient continus sur toute la surface 
du triangle. 

On observe que deux procedures peuvent 
indif f eremment etre suivies : soit, comme expose ci-dessus, 
on constitue par metamorphose partielle, une personne 

10 modelisee, dont certains points, dits primaires, servent de 
reperes pour 1 • animation, soit on anime le modele puis on 
constitue une metamorphose partielle du modele anime et de 
1 1 image reelle . 

Selon une variante non representee, le 

15 modeliseur 8 ne fonctionne plus a partir d 1 une 
photographie , mais a partir d 1 informations transmises par 
1 ' interlocuteur utilisant le telephone 2. A titre 
d'exemple, cet utilisateur indique les caracteristiques de 
son visage, de sa chevelure, de lunettes, d'appareil 

20 dentaire, de couleur de peau, de maigreur et autres 
caracteristiques optiques. A cet effet, il peut utiliser de 
nombreuses techniques connues, par exemple en enon?ant ces 
caracteristiques, en utilisant un ordinateur et un modem, 
en utilisant le clavier 3, en remplacement de 1 1 information 

25 fournie par le scanner 7. ' 

Selon une derniere variante, le modeliseur 8 
re<;oit une information representative d ' une image d 1 une 
personne modelisee conservee en memoire et une voix 
destinee a etre associee a cette personne modelisee. 

30 L 1 image memorisee comporte les reperes ou points primaires 
presentes ci-dessus, A titre d'exemple, 1 ' information 
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representative peut indiquer la personne politique ou 
mediatique qui est representee et la voix peut etre la voix 
de cette personne ou encore une imitation de la voix de 
cette personne . 

5 On observe que la mise en memoire des personnes 

modelisees adaptees a etre animees par les voix peut etre 
realisee soit par transmission a distance, par exemple par 
le reseau telephonique ou par une emission hertzienne, soit 
par distribution de supports de memoire, comme des disques 
10 optiques ou magneto-opt ique ou des compact -disques ( CD- 
ROM) . 

On note a cet egard que 1 * invention permet 
ainsi la creation de chaines de television d ' information ou 
de divertissement en utilisant uniquement la bande passante 

15 correspondant aux voix humaines, eventuellement completee 
par des informations numeriques traitees a leur reception 
pour ne pas etre audibles par les spectateurs. Ainsi, une 
station de radiodif fusion pourra ajouter a ses programmes 
normaux des informations qui, traitees a la reception, 

20 permettront au dispositif selon I 1 invention de determiner 
la personne modelisee a animer par la voix transmise par 
ladite station (cette personne modelisee pouvant , en 
complement etre animee par des informations numeriques non 
audibles transmises par le signal radiodif fuse) . 

25 De memes des utilisateurs de reseaux de 

communication, comme le reseau INTERNET, pourront non 
seulement transmettre leur image et 1 ' animer avec leur 
voix, mais aussi transmettre des images et des voix 
d 1 autres personnes . 
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Selon une variante, 1 ' image de 1 ' interlocuteur 
est prise par une camera video realiee a une carte de 
numerisation d' image. 

Selon une variante non representee de chaque 
5 mode de realisation, le moyen d' analyse de message ou de 
sons n'effectue que la mesure d'une intensite sonore 
instantanee et le moyen d' animation de modele n'effectue 
que 1' animation de la bouche du visage modelise, en ouvrant 
la bouche par separation verticale des levres, avec une 
10 ouverture des levres d'autant plus grande que 1' intensite 
sonore instantanee analysee par le moyen d' analyse est 
elevee . 

Selon une derniere variante, 1 1 interlocuteur 
dont 1 1 image est transmise, transmet son image 

15 electronique, captee par un capteur photoelectrique connu, 
en positionnant lui-meme les points primaires ou reperes 
permettant d'animer cette image en utilisant les 
expressions orales transmises par la voix, comme decrit ci- 
dessus. Pour posit ionner lesdits reperes, un systeme 

20 inf ormatique comportant un ordinateur et un moyen de 
pointage, comme par exemple une souris, pourront etre 
utilises selon des techniques connues de 1 1 homme du metier. 

L' invention s' applique part iculierement aux 
transmissions de messages audio- visuels sur un reseau 

25 inf ormatique , de type INTERNET/ a la diffusion d' emission 
televisuelles ou radiophoniques , a 1 ' incorporation dans des 
consoles de jeux, des ordinateurs, des bancs de montage 
audiovisuels ou encore des televisiophones (non 
representes) . 
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REVEND I CATIONS 

1- Dispositif de transmission d ■ images animees et 

sonorisees representatives d'un interlocuteur , caracterise 
5 en ce qu'il comporte : 

- un moyen de memorisation (109, 14 2) d'une image d'un 
visage dit « modelise » representat if du visage dudit 
interlocuteur ; 

- un moyen de communication a distance (101 a 105, 14 0 a 
10 144) de signaux representatifs d'un message susceptible 

d'etre prononce par ledit interlocuteur ; 

- un moyen d' analyse desdits signaux (107, 153) adapte a 
determiner une succession d ' expressions de visage 
correspondant a la prononciation dudit message par une 

15 voix, selon des regies predeterminees prenant en compte 

lesdits signaux ; 

- un moyen d' animation (110, 152) adapte a animer 1 1 image 
du visage modelise de 1 ' interlocuteur pour que ledit 
visage presente successivement chague expression de 

20 ladite succession d' expressions de visage correspondant 

a la prononciation dudit message par ladite voix, et 

- un moyen d'affichage d' image et d' emission de sons 
vocaux (113, 114, 149, 154), adapte a emettre ladite 
voix et a afficher simultanement ledit visage modelise 

25 presentant 1' expression correspondant a chaque instant a 

la prononciation dudit message par ladite voix. 

2. Dispositif de transmission d 1 images animees et 

sonorisees representatives du visage d'un interlocuteur, 
30 caracterise en ce qu'il comporte : 
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- un moyen de memorisation (109) d 1 une image d'un visage 
dit « modelise » representatif du visaqe dudit 
interlocuteur 

- un moyen de reception de signaux (106) representatif s 
5 d'un . message susceptible d'etre prononce par ledit 

interlocuteur 

un moyen d' analyse desdits signaux (107) adapte a 
determiner une succession d ' expressions de visage 
correspondant a la prononciat ion dudit message par une 
10 voix, selon des regies prede terminees prenant en compte 

lesdits signaux ; 

- un moyen d 1 animation (110) adapte a animer 1 ' image du 
visage modelise de 1 ' interlocuteur pour que ledit visage 
presente successivement chaque expression de ladite 

15 succession d ' expressions de visage correspondant a la 

prononciation dudit message par ladite voix, et 

un moyen de transmission (111) de signaux 
simultanement representatif s de sons vocaux, 
correspondant a ladite voix et d' images correspondant 

20 audit visage modelise presentant 1' expression 

correspondant a chaque instant a la prononciation dudit 
message par ladite voix. 

3. Dispositif de transmission selon 1'une 

25 quelconque des revendicat ions 1 ou 2 , caracterise en ce que 
le moyen de transmission a distance (101 a 105) est adapte 
a transmettre des signaux representatif s d'un message vocal 
prononce par ledit interlocuteur. 



30 



4. Dispositif de transmission selon l'une 

quelconque des revendicat ions 1 ou 2 , caracterise en ce que 
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le moyen de transmission a distance (144) est adapte a 
transmettre des signaux representat if s d'un texte 
susceptible d'etre prononce par 1 ' inter locuteur . 

5 5. Dispositif de transmission selon l'une 

quelconque des revendications 1 a 4, caracterise en ce 
qu'il comporte un moyen de modelisat ion d' image (108, 7) 
adapte a fournir une image destinee a etre animee, en 
fonction d ' une image prise par un capteur photosensible et 
10 en ce que le moyen de memorisation {109, 8) memorise ladite 
image . 

6. Dispositif de transmission selon la 

revendicat ion 5, caracterise en ce que ledit moyen de 
15 modelisation (109, 8) est adapte a effectuer un "morphing" 
partiel, c'est-a-dire une metamorphose partielle prenant en 
compte ladite image prise par un capteur photosensible, et 
un modele predetermine adapte a etre anime . 

20 7. Dispositif de transmission selon l'une 

quelconque des revendications 1 a 6, caracterise en ce 
qu'il comporte un recepteur (106, 147) relie a une ligne 
telephonique (105, 146, 4). 

25 8. Dispositif de transmission selon l'une 

quelconque "des revendications 1 a 6, caracterise en ce 
qu'il comporte une antenne hertzienne (111, 112, 126, 127, 
13) . 

3 0 9. Reseau, caracterise en -.ce qu'il comporte : 
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- une pluralite de systemes inf ormat iques relies par des 
liaisons de communication, 

- au moins un dispositif de transmission selon l'une 
quelconque des revendicat ions 1 a 8, et 

- relie par une dite liaison informatique a au moins un 
dit dispositif de transmission, au moins un moyen 
d'affichage et d' emission de sons vocaux, adapte a 
emettre ladite voix et a afficher sirnul tanement ledit 
visage modelise presentant 1' expression correspondant a 
chaque instant a la prononciat ion dudit message par 
ladite voix. 

10. Procede de formation d r images animees et 

sonorisees representatives du visage d 1 un interlocuteur , 
caracterise en ce qu'il consiste a effectuer successivement 
les etapes suivantes : 

- dans un premier temps : 

* une operation de reception d'une image d'un visage 
dudit interlocuteur ; 

* une operation de modelisation d'un visage dit 
« modelise » representatif dudit visage et adapte a etre 
anime ; et 

* une operation de memorisation dudit visage modelise ; 

- puis, dans un deuxieme temps et apres une operation de 
reception de signaux representatif s d'un message 
susceptible d'etre prononce par ledit interlocuteur, 

* une operation d' analyse de ces signaux pour determiner 
une succession d' expressions de visage qui correspond a 
la prononciation dudit message par une voix ; et, 
simul tanement : 
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une operation d' emission sonore de ladite voix 
pronongant ledit message, et 

une operation d' animation dudit visage modelise 
pour qu'il presente successivement chaque expression 
5 de ladite succession d' expressions de visage 

correspondant a chaque instant a la prononciat ion 
dudit message par ladite voix. 

11. Procede selon la revendicat ion 10, caracterise 
10 en ce que 1' operation de reception de signaux comporte la 

reception de signaux representatif s d'un message vocal 
prononce par ledit interlocuteur . 

12. Procede selon la revendication 11, caracterise 
15 en ce que 1' operation de reception de signaux comporte la 

reception de signaux representatif s d'un texte susceptible 
d'etre prononce par 1 ' interlocuteur . 

13. Procede selon 1 ' une quelconque des 
20 revendicat ions 10 a 12, caracterise en ce que, au cours de 

1' operation de modelisation, ledit interlocuteur positionne 
des reperes sur certains points d'une image captee par 
1 ' intermediaire d'un capteur photosensible . 

25 14. Console de jeu, caracterisee en ce qu'elle met 

en oeuvre un dispositif de transmission selon 1 ' une 
quelconque des revendicat ions 1 a 8 ou un procede selon 
1 ' une quelconque des revendicat ions 10 a 13 . 

30 15. Ordinateur, caracteriseje en ce qu'il met en 

oeuvre un dispositif de transmission selon 1 ' une quelconque 

BNSDOCID: <WO 9746974A1J_> 



WO 97/46974 



4 1 PCT/FR97/0098 1 



des revendications 1 a 8 ou un procede selon 1 * une 
quelcongue des revendications 10 a 13. 

16. Banc de montage audiovisuel, caracterisee en ce 

5 qu'il met en oeuvre un dispositif de transmission selon 
1 ' une guelconque des revendications 1 .a 8 ou un procede 
selon 1 'une quelconque des revendications 10 a 13. 



17. Televisiophone , caracterise en ce qu'il met en 

10 oeuvre un dispositif de transmission selon 1 ' une quelconque 
des revendications 1 a 8 ou un procede selon 1 ' une 
quelconque des revendications 10 a 13. 
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